一文读懂如何破解新冠病毒基因组全长序列
基于实时荧光RT-PCR法的核酸检测技术在新冠病毒快速鉴定及确诊中发挥了重要作用。然而,若要对新冠病毒来源、变异进化及致病机理等进行研究,需获取完整的病毒基因组信息,这离不开高通量测序和病毒序列组装。
为全面深入地揭示新冠病毒的相关特性,华大智造可为新型冠状病毒高通量测序、序列组装、变异进化分析等流程提供一体化解决方案,并已协助全国多地疾控中心成功组装新型冠状病毒全长序列。结果显示,它们与公布的参考基因组序列高度一致。
新冠病毒序列组装过程中的难点及要求
如大家所知,高通量测序在新冠病毒鉴定及诊断中可与RT-PCR法形成互补,不仅能提高阳性检出率,还能进行并发检测,提供更多可能感染的病原信息。更为重要的是,它还可以对病毒序列进行组装,获得病毒全长基因组信息,为追溯病毒来源、监测病毒变异趋势、探究致病机理提供研究基础。
为获取完整的病毒基因组序列,目前广泛应用的高通量测序技术是将核酸序列打断成短片段进行测序,然后通过分析软件将测得的短序列进行拼接组装。然而,新型冠状病毒作为一种新发病毒,人们在测序深度、测序准确性、重复序列比例等方面,还没有形成具有参考意义的经验值。如果要将海量的短序列还原出原始的基因组序列,则会在序列拼接中出现以下问题:
首先,难免出现测序错误,导致某些重叠可信度低;其次,基因组序列的不完全覆盖性以及高重复序列的干扰,会影响拼接的准确性和完整性;最后,宏转录组测序样本中的人源序列占85%以上,病原序列仅占5%左右,这使得病毒基因组序列拼接难度更高。
图1 序列拼接组装难点及其对测序方案的要求
优化测序策略,确保病毒序列信息完整性
为破解上述新冠病毒序列在组装过程中遇到的难题,华大智造可提供含建库、高通量测序、序列组装、变异进化分析等流程在内的一体化解决方案。
在建库环节中,为避免样本在采样、保存和运输过程中因不确定性导致提取的核酸含量出现较大差异,华大智造可提供两种方案:一是对核酸含量高的样本建议进行rRNA去除再建库,提高有效数据占比;二是对核酸含量低的样本,直接进行RNA建库,减少核酸损失,提升建库成功率,并加大测序深度。
其次,在测序环节采用华大智造MGISEQ-200测序仪,它不仅小巧灵活,同时高效专注,已协助全国多地疾控中心完成鉴定并成功拼接出各地首例新冠病毒序列。
最后,通过病原鉴定系统对新冠病毒序列进行数据分析并采用IDBA方法完成拼接。
这样,即使是在未去除宿主的情况下,也可以满足宏转录组测序病毒序列组装对数据量的要求,保证序列信息的完整性。
图2 针对新型冠状病毒序列组装的解决方案与策略
实例解析新冠病毒全基因组序列获取全流程
接下来,我们将以某疾控中心收到的1例新冠病毒肺炎疑似样本为例,为您解析该CDC首例新型冠状病毒感染病例呼吸道标本宏转录组测序及病毒序列组装全流程:
图3 新型冠状病毒全基因组序列获取全流程
新冠病毒全基因组序列获取全流程
2020年1月20日 - 1月22日上午
1月20日,文库制备
针对核酸量不同的样本,团队分别采用了不同的建库策略,并使用MGIEasy RNA文库制备试剂套装进行建库。经反转录、接头连接、PCR扩增、纯化等一系列操作后获得文库产物,再使用滚环扩增技术,制备DNA纳米球。
图4 MGIEasy RNA文库制备试剂套装
1月21日,上机测序
基于MGISEQ-200平台,对该地发现的首例病例的呼吸道标本进行300M的高深度测序。
图5 某疾控中心运行的MGISEQ-200测序仪
1月22日上午,数据分析
产出32Gb数据,总reads数318M。结合病原感染快速鉴定系统,鉴定出2,337,442条新型冠状病毒reads。
图6 分析报告病毒鉴定结果
1月22日上午,拼接组装
分析软件自动将2,337,442条的新型冠状病毒reads从所有序列中抽出。使用拼接效率高的IDBA方法进行组装,成功完成新型冠状病毒的序列组装,获得基因组序列全长29.9kb。
图7 病毒基因组序列拼接组装流程
知己知彼,百战不殆。尽管我们对新型冠状病毒的认识有待进一步研究,但通过宏转录组测序和病毒序列组装获得新型冠状病毒全基因组序列,有助于揭示病毒相关特性。通过对全基因组序列相似性比较和变异位点分析,可以为构建进化图谱、追溯病毒来源、追踪变异路径、了解致病机理等提供重要参考信息,助力抗击疫情。